Denoising diffusion models (DDMs) have led to staggering performance leaps in image generation, editing and restoration. However, existing DDMs use very large datasets for training. Here, we introduce a framework for training a DDM on a single image. Our method, which we coin SinDDM, learns the internal statistics of the training image by using a multi-scale diffusion process. To drive the reverse diffusion process, we use a fully-convolutional light-weight denoiser, which is conditioned on both the noise level and the scale. This architecture allows generating samples of arbitrary dimensions, in a coarse-to-fine manner. As we illustrate, SinDDM generates diverse high-quality samples, and is applicable in a wide array of tasks, including style transfer and harmonization. Furthermore, it can be easily guided by external supervision. Particularly, we demonstrate text-guided generation from a single image using a pre-trained CLIP model.
translated by 谷歌翻译
近年来,文本发现的主要范例是将文本检测和识别的任务结合到一个端到端的框架中。在此范式下,这两个任务都是通过从输入图像中提取的共享全局特征图操作来完成的。端到端方法面临的主要挑战之一是识别跨音阶变化(较小或较大的文本)和任意单词旋转角的文本时的性能退化。在这项工作中,我们通过提出一种新型的全球到本地关注机制来解决这些挑战,用于文本斑点,称为玻璃,将全球和本地特征融合在一起。全局功能是从共享骨干线中提取的,从整个图像中保留上下文信息,而本地功能则在调整大小的高分辨率旋转的单词作物上单独计算。从当地农作物中提取的信息减轻了尺度和单词旋转的许多固有困难。我们显示了跨音阶和角度的性能分析,突出了尺度和角度的肢体的改善。此外,我们引入了一个方向感知的损失项,以监督检测任务,并显示其对所有角度的检测和识别性能的贡献。最后,我们通过将玻璃纳入其他领先的文本发现架构,改善其文本斑点性能来表明玻璃是一般的。我们的方法在包括新发布的Textocr在内的多个基准上实现了最新的结果。
translated by 谷歌翻译
经典的$ \ textit {procrustes} $问题是找到一个刚体的运动(正交转换和翻译),该运动在最小二乘中最能使两个给定的点集对齐。 $ \ textit {robust procrustes} $问题是一个重要的变体,其中使用power-1目标而不是最小二乘来改善异常值的鲁棒性。虽然最小二乘问题的最佳解决方案可以很容易地以封闭形式计算,但可以追溯到sch \“ onemann(1966),但对于Power-1问题,尚无此类解决方案。对于强大的procrustes问题。我们的放松享有几种理论和实用的优势:从理论上讲,我们证明我们的方法提供了$ \ sqrt {2} $ - 因强大的procrustes问题的近似值,并且在适当的假设下,它的恢复正常恢复。来自异常值污染的点对应关系的真实刚性运动。在实践中,我们在合成和真实鲁棒的数值实验中发现,我们的方法的性能类似于标准迭代重新加权的最小二乘(IRLS)。但是,我们的算法的溶剂性能是允许合并其他凸罚,这是不容易被IRLS的。随之而来的问题,包括非刚性形状对准和半监督的语言词翻译。
translated by 谷歌翻译
我们第一次尝试解决步态转移问题。与运动转移相反,这里的目的不是模仿源的正常动作,而是将源的运动转变为目标的典型步态模式。使用步态识别模型,我们证明了现有技术产生的差异很容易被检测到。我们介绍了一种新型模型,即Cycle Transformers Gan(Ctrgan),该模型可以成功地产生目标的自然步态。 Ctrgan的发电机由一个解码器和编码器组成,两个变压器都在完整图像之间的时间域上,而不是斑块之间的空间域之间的时间域。虽然最近在计算机视觉中的变压器研究主要集中在判别任务上,但我们引入了一个可以应用于综合任务的体系结构。我们使用广泛使用的步态识别数据集,我们证明我们的方法能够比现有方法更现实的个性化步态,即使与训练过程中没有可用的来源一起使用,也能够在数量级上产生更现实的个性化步态。
translated by 谷歌翻译
我们为单个通道语音分离任务提供了上限,该任务是基于关于短段的性质的假设。使用界限,我们能够证明,尽管最近的方法对少数发言人取得了重大进展,但五名和十位扬声器的余地都有改进的余地。然后,我们引入了一个深神网络,即迭代地改善了不同的说话者的估计。在测试时,根据我们的分析产生的相互信息标准,SPEIT的每个测试样品具有不同的迭代次数。在一系列广泛的实验中,SEPIT的表现优于2、3、5和10扬声器的最新神经网络。
translated by 谷歌翻译
人工智能(AI)的应用范围是巨大的,危害可能性也是如此。越来越愤怒地对来自AI系统的潜在风险产生了刺激行动,以解决这些风险,同时侵蚀对AI系统的信心以及发展它们的组织。 2019年研究发现了80多个出版和采用了“AI伦理原则”的组织,从此加入了更多。但原则往往会在“什么”和“如何”之间的差距和“如何”的差距。这样的差距已经启用可疑或道德可疑的行为,这促进了特定组织的可信度,更广泛地。因此,迫切需要允许AI开发人员防止伤害的具体方法,并允许他们通过可验证行为来证明其可靠性。下面,我们探索机制(从ARXIV:2004.07213绘制)创建一个生态系统,即AI开发人员可以获得信任 - 如果他们值得信赖。更好地评估开发商可信度,可以为用户选择,员工行动,投资决策,法律追索和新兴治理提供信息。制度。
translated by 谷歌翻译
谷歌的运营洪水预测系统是制定的,为机构和公众提供准确的实时洪水警告,重点是河流洪水在大型潮流的河流中。它在2018年开始运作,自从地理位置扩展以来。该预测系统由四个子系统组成:数据验证,阶段预测,淹没建模和警报分配。机器学习用于两个子系统。阶段预测采用长短期内存(LSTM)网络和线性模型进行建模。使用阈值和歧管模型计算洪水淹没,前者计算淹没程度,后者计算淹没程度和深度。本文首次提供的歧管模型提供了一种机器学习替代洪水淹没的液压建模。在评估历史数据时,所有型号都可以实现可操作使用的足够高的度量指标。 LSTM表现出比线性模型更高的技能,而阈值和歧管模型达到了类似的性能度量,以便在淹没程度上进行建模。在2021年的季风季节期间,洪水预警系统在印度和孟加拉国运营,覆盖河流的洪水区,总面积287,000平方公里,拥有350多万人。超过100米的洪水警报被发送给受影响的人口,相关当局以及紧急组织。系统上的当前和未来的工作包括将覆盖范围扩展到额外的洪水易发位置,以及提高建模能力和准确性。
translated by 谷歌翻译
我们通过将系统的任务性能以及系统开发和部署产生的时间和资源成本纳入整体框架来重新构架AI中的进度分析。这些成本包括:数据,专家知识,人类监督,软件资源,计算周期,硬件和网络设施以及(什么样的)时间。这些成本分配在系统的生命周期中,并可能对不同的开发人员和用户提出不同的需求。我们提出的多维性能和成本空间可以折叠成单个公用事业指标,该指标衡量了对不同利益相关者的系统价值。即使没有单个效用函数,AI的进步也可以通过它们是否扩展帕累托表面来评估。我们将这些类型的成本标记为被忽视的AI进度维度,并使用四个案例研究探索它们:Alpha*(GO,国际象棋和其他棋盘游戏),ALE(Atari Games),Imagenet(图像分类)和虚拟个人助理( Siri,Alexa,Cortana和Google Assistant)。 AI中的这种更广泛的进步模型将导致估计AI系统潜在的社会使用和影响的新颖方法,以及建立里程碑以实现未来的进步。
translated by 谷歌翻译